# encoding:utf-8
#!/usr/bin/env python
# @Time                 : 2018/5/23
# @Author               : Zhihong Tang
# @Function             : jieba分词实验---自定义字典
# @Version              : python 2.7.13

import sys
reload(sys)
sys.setdefaultencoding('utf8')
import jieba
jieba.load_userdict("userdict.txt")

test_sent = u"李小福是创新办主任也是云计算方面的专家"
test_sent2 = u'江州市长江大桥参加了长江大桥的通车仪式'

print "/ ".join(jieba.cut(test_sent))
print "/ ".join(jieba.cut(test_sent2))

"""
自定义词典的格式：一个词占一行；每一行分三部分，一部分为词语，另一部分为词频，最后为词性（可省略），用空格隔开
其中user_dict.txt的内容是：
云计算
李小福 2 nr
创新办 3 i
easy_install 3 eng
好用 300
韩玉赏鉴 3 nz
八一双鹿 3 nz
台中
凱特琳 nz
Edu Trust认证 2000
"""